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Abstract Resumen 


his article presents a review and state of art about devel- 
opment in educational evaluation in the XXth century. The 
main theoretical proposals are commented 


Este artículo presenta una revisión crítica del desarrollo 
histórico que ha tenido el ámbito de la evaluación educa- 
tiva durante todo el siglo XX. Se analizan los principales 
propuestas teóricas planteadas. 
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Introducción El análisis la vamos a llevar a cabo basándo- 
nos en tres planteamientos que podríamos ta- 
En cualquier disciplina, la aproximación histó- char de clásicos en la reciente literatura sobre 
rica suele ser una vía fundamental para compren- el tema y que usamos indistintamente, aunque 
der su concepción, estatus, funciones, ámbito, no tenemos la pretensión de ofrecer un plan- 
etc. Este hecho es especialmente evidente en el teamiento de síntesis, sino de utilización cabal 
caso de la evaluación, pues se trata de una disci- de todos ellos, puesto que los tres plantea- 
plina que ha sufrido profundas transformaciones mientos inciden sobre los mismos momentos y 
conceptuales y funcionales a lo largo de la histo- movimientos claves. 
ria y, sobre todo, a lo largo del siglo XX, en el 
que principalmente ubicamos nuestro análisis. En Un planteamiento, quizás el más utilizado en 
este sentido, la aproximación diacrónica al con- nuestro contexto (Mateo y otros, 1993; Her- 


cepto resulta imprescindible. nández, 1993), es el que ofrecen Madaus, Scri- 
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ven, Stufflebeam y otros autores, que en sus tra- 
bajos suelen establecer seis épocas, empezando 
su análisis desde el siglo XIX (Stufflebeam y 
Shinkfield, 1987; Madaus y otros, 1991). Nos 
hablan de: a) época de la reforma (1800-1900), 
b) época de la eficiencia y del «testing» (1900- 
1930), c) época de Tyler (1930-1945), d) época 
de la inocencia (1946-1956), e) época de la ex- 
pansión (1957-1972) y f) época de la profesiona- 
lización (desde 1973), que enlaza con la situa- 
ción actual. 


Otros autores como Cabrera (1986) y Salvador 
(1992) citan tres grandes épocas, tomando como 
punto de referencia central la figura de Tyler en 
el segundo cuarto del Siglo XX. A la época de 
Tyler se le denomina de nacimiento, a las ante- 
riores de precedentes o antecedentes y a la poste- 
rior de desarrollo. 


Guba y sus colaboradores, sobre todo Yvonna 
Lyncoln, destacan distintas generaciones. Ahora 
estaríamos en la cuarta (Guba y Lincoln, 1989), 
que según ellos se apoya en el enfoque paradig- 
mático constructivista y en las necesidades de los 
«stakeholders» (demandantes e implicados en la 
evaluación), como base para determinar la in- 
formación que se necesita. La primera genera- 
ción es la de la medición, que llega hasta el pri- 
mer tercio de este siglo, la segunda es la de la 
descripción y la tercera la del juicio o valoración. 


Tras el análisis histórico, como complemento y 
como revisión de síntesis del mismo, ofrecemos 
un sucinto resumen de los enfoques evaluativos 
más relevantes, de los distintos modelos y plan- 
teamientos que, con mayor o menor fuerza, vie- 
nen a nuestra mente cuando intentamos acotar lo 
que es hoy en día la investigación evaluativa en 
educación 


1. Precedentes: Antes de los «tests» y de la 
medición 


Desde la antigüedad se han venido creando y 
usando procedimientos instructivos en los que 
los profesores utilizaban referentes implícitos, 
sin una teoría explícita de evaluación, para valo- 
rar y, sobre todo, diferenciar y seleccionar a es- 
tudiantes. Dubois (1970) y Coffman (1971) citan 


los procedimientos que se empleaban en la 
China imperial, hace más de tres mil años, para 
seleccionar a los altos funcionarios. Otros auto- 
res como Sundbery (1977) hablan de pasajes 
evaluadores en la Biblia, mientras Blanco 
(1994) se refiere a los exámenes de los profe- 
sores griegos y romanos. Pero según McRey- 
nold (1975), el tratado más importante de eva- 
luación de la antigiiedad es el Tetrabiblos, que 
se atribuye a Ptolomeo. También Cicerón y 
San Agustín introducen en sus escritos concep- 
tos y planteamientos evaluadores. 


En la Edad Media se introducen los exáme- 
nes en los medios universitarios con carácter 
más formal. Hay que recordar los famosos 
exámenes orales públicos en presencia de tri- 
bunal, aunque sólo llegaban a los mismos los 
que contaban con el visto bueno de sus profe- 
sores, con lo que la posibilidad de fracaso era 
prácticamente inexistente. En el Renacimiento 
se siguen utilizando procedimientos selectivos 
y Huarte de San Juan, en su Examen de inge- 
nios para las ciencias, defiende la observación 
como procedimiento básico de la evaluación 
(Rodríguez y otros, 1995). 


En el siglo XVIII, a medida que aumenta la 
demanda y el acceso a la educación, se acentúa 
la necesidad de comprobación de los méritos 
individuales y las instituciones educativas van 
elaborando e introduciendo normas sobre la 
utilización de exámenes escritos (Gil, 1992). 


Entrado el siglo XIX se establecen los siste- 
mas nacionales de educación y aparecen los 
diplomas de graduación, tras la superación de 
exámenes (exámenes del Estado). Según Max 
Weber (Barbier, 1993), surge un sistema de 
exámenes de comprobación de una preparación 
específica, para satisfacer las necesidades de 
una nueva sociedad jerárquica y burocratizada. 
En los Estados Unidos, en 1845, Horace Mann 
comienza a utilizar las primeras técnicas eva- 
luativas del tipo «tests» escritos, que se extien- 
den a las escuelas de Boston, y que inician el 
camino hacia referentes más objetivos y explí- 
citos con relación a determinadas destrezas 
lecto-escritoras. Sin embargo, no se trata toda- 


Escudero Escorza, T. (2003). Desde los tests hasta la investigación evaluativa actual. Un siglo, el XX, de inteso 


desarrollo de la evaluación en educación. RELIEVE:, v. 9, n. 1, p. 11-43. 


http://www.uv.es/RELIEVE/v9n1/RELIEVEv9n1_1.htm 


vía de una evaluación sustentada en un enfoque 
teórico, sino más bien, algo que responde a prác- 
ticas en buena medida rutinarias y con frecuencia 
basadas en instrumentos poco fiables. 


Al final del siglo XIX, en 1897, aparece un tra- 
bajo de J. M. Rice, que se suele señalar como la 
primera investigación evaluativa en educación 
(Mateo y otros, 1993). Se trataba de un análisis 
comparativo en escuelas americanas sobre el 
valor de la instrucción en el estudio de la ortogra- 
fía, utilizando como criterio las puntuaciones 
obtenidas en los tests. 


2. Los tests psicométricos 


En el contexto anterior, a finales del siglo XIX, 
se despierta un gran interés por la medición cien- 
tífica de las conductas humanas. Esto es algo que 
se enmarca en el movimiento renovador de la 
metodología de las ciencias humanas, al asumir 
el positivismo de las ciencias físico-naturales. En 
este sentido, la evaluación recibe las mismas 
influencias que otras disciplinas pedagógicas 
relacionadas con procesos de medición, como la 
pedagogía experimental y la diferencial (Cabrera, 
1986). 


La actividad evaluativa se verá condicionada 
de forma decisiva por diversos factores que con- 
fluyen en dicho momento, tales como: 


a) El florecimiento de las corrientes filosófi- 
cas positivistas y empíricas, que apoyaban a la 
observación, la experimentación, los datos y 
los hechos como fuentes del conocimiento 
verdadero. Aparece la exigencia del rigor cien- 
tífico y de la objetividad en la medida de la 
conducta humana (Planchard, 1960) y se po- 
tencian las pruebas escritas como medio para 
combatir la subjetividad de los exámenes ora- 
les (Ahman y Cook, 1967). 


b) La influencia de las teorías evolucionistas 
y los trabajos de Darwin, Galton y Cattel, apo- 
yando la medición de las características de los 
individuos y las diferencias entre ellos. 


c) El desarrollo de los métodos estadísticos 
que favorecía decisivamente la orientación 
métrica de la época (Nunnally, 1978). 


d) El desarrollo de la sociedad industrial 
que potenciaba la necesidad de encontrar 
unos mecanismos de acreditación y selec- 
ción de alumnos, según sus conocimientos. 


Consecuentemente con este estado de cosas, 
en este periodo entre finales del siglo XIX y 
principios del XX, se desarrolla una actividad 
evaluativa intensa conocida como «testing», 
que se define por características como las si- 
guientes: 


e Medición y evaluación resultaban términos 
intercambiables. En la práctica sólo se 
hablaba de medición. 


*El objetivo era detectar y establecer dife- 
rencias individuales, dentro del modelo del 
rasgo y atributo que caracterizaba las elabo- 
raciones psicológicas de la época (Fernández 
Ballesteros, 1981), es decir, el hallazgo de 
puntuaciones diferenciales, para determinar 
la posición relativa del sujeto dentro de la 
norma grupal. 


e Los tests de rendimiento, sinónimo de eva- 
luación educativa, se elaboraban para esta- 
blecer discriminaciones individuales, olvi- 
dándose en gran medida la representatividad 
y congruencia con los objetivos educativos. 
En palabras de Guba y Lincoln (1982), la 
evaluación y la medida tenían poca relación 
con los programas escolares. Los tests in- 
formaban algo sobre los alumnos, pero no de 
los programas con los que se les había for- 
mado. 


En el campo educativo destacan algunos ins- 
trumentos de aquella época, como las escalas 
de escritura de Ayres y Freeman, de redacción 
de Hillegas, de ortografía de Buckingan, de 
cálculo de Wood, de lectura de Thorndike y 
McCall y de aritmética de Wood y McCall 
(Planchard, 1960; Ahman y Cook, 1967; Ebel, 
1977). 
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Sin embargo, fue en los tests psicológicos don- 
de los esfuerzos tuvieron mayor impacto, siendo 
probablemente la obra de Thorndike (1904) la de 
mayor influencia en los comienzos del siglo XX. 
En Francia destacan los trabajos de Alfred Binet, 
después revisados por Terman en la Universidad 
de Stanford, sobre tests de capacidades cogniti- 
vas. Ahora hablamos del Stanford-Binet, uno de 
los tests mas conocidos en la historia de la psi- 
cometria. 


Afios mas tarde, con las necesidades de reclu- 
tamiento en la Primera Guerra Mundial, Arthur 
Otis dirige un equipo que construye tests colecti- 
vos de inteligencia general (Alfa para lectoescri- 
tores y Beta para analfabetos) e inventarios de 
personalidad (Phillips, 1974). 


Tras la contienda, los tests psicológicos se po- 
nen al servicio de fines sociales. La década entre 
1920 y 1930 marca el punto mas alto del «tes- 
ting», pues se idean multitud de tests estandari- 
zados para medir toda clase de destrezas escola- 
res con referentes objetivos externos y explicitos, 
basados en procedimientos de medida de la inte- 
ligencia, para utilizar con grandes colectivos de 
estudiantes. 


Estas aplicaciones estandarizadas se acogen 
muy bien en los ambitos educativos y McCall 
(1920) propone que los profesores construyan 
sus propias pruebas objetivas, para no tener que 
confiar exclusivamente en las propuestas por 
especialistas externos. 


Este movimiento estuvo vigente en paralelo al 
proceso de perfeccionamiento de los tests psico- 
logicos con el desarrollo de la estadistica y del 
analisis factorial. El fervor por el «testing» de- 
creció a partir de los años cuarenta e, incluso, 
empezaron a surgir algunos movimientos hiper- 
críticos con estas prácticas. 


Guba y Lincoln (1989) se refieren a esta eva- 
luación como a la primera generación, que puede 
legítimamente ser denominada como la genera- 
ción de la medida. El papel del evaluador era 
técnico, como proveedor de instrumentos de me- 
dición. Según estos autores, esta primera genera- 
ción permanece todavía viva, pues todavía exis- 


ten textos y publicaciones que utilizan de ma- 
nera indisoluble evaluación y medida (Gron- 
lund, 1985). 


3. El nacimiento de la verdadera evalua- 
ción educativa: La gran reforma 
«tyleriana» 


Antes de que llegara la revolución promovida 
por Ralph W. Tyler, en Francia se inicia en los 
años veinte una corriente independiente cono- 
cida como docimología (Pieron, 1968 y 1969; 
Bonboir, 1972), que supone un primer acerca- 
miento a la verdadera evaluación educativa. Se 
criticaba, sobre todo, el divorcio entre lo ense- 
ñado y las metas de la instrucción. La evalua- 
ción se dejaba, en último término, en manos de 
una interpretación totalmente personal del pro- 
fesor. Como solución se proponía: a) elabora- 
ción de taxonomías para formular objetivos, b) 
diversificación de fuentes de información, 
exámenes, expedientes académicos, técnicas de 
repesca y tests, c) unificación de criterios de 
corrección a partir del acuerdo entre los correc- 
tores de las pruebas y d) revisión de los juicios 
de valoración mediante procedimientos tales 
como la doble corrección, o la media de distin- 
tos correctores. Como puede verse, se trata de 
criterios en buena medida vigentes actualmente 
y, en algún caso, incluso avanzados. 


Pero quien es tradicionalmente considerado 
como el padre de la evaluación educativa es 
Tyler (Joint Committee, 1981), por ser el pri- 
mero en dar una visión metódica de la misma, 
superando desde el conductismo, muy en boga 
en el momento, la mera evaluación psicológica. 
Entre 1932 y 1940, en su famoso Eight-Year 
Study of Secondary Education para la Progres- 
sive Education Association, publicado dos años 
después (Smith y Tyler, 1942), plantea la nece- 
sidad de una evaluación científica que sirva 
para perfeccionar la calidad de la educación. 
La obra de síntesis la publica unos años des- 
pués (Tyler, 1950), exponiendo de manera cla- 
ra su idea de «curriculum», e integrando en él 
su método sistemático de evaluación educativa, 
como el proceso surgido para determinar en 
qué medida han sido alcanzados los objetivos 
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previamente establecidos (véase también Tyler, 
1967 y 1969). 


El «curriculum» viene delimitado por las cua- 
tro cuestiones siguientes: 


a) ¿Qué objetivos se desean conseguir? 
b) ¿Con qué actividades se pueden alcanzar? 


c) ¿Cómo pueden organizarse eficazmente 
estas experiencias? 


d) ¿Cómo se puede comprobar si se alcanzan 
los objetivos? 


Y la buena evaluación precisa de las siguientes 
condiciones: 


a) Propuesta clara de objetivos. 


b) Determinación de las situaciones en las 
que se deben manifestar las conductas espera- 
das. 


c) Elección de instrumentos apropiados de 
evaluación. 


d) Interpretación de los resultados de las 
pruebas. 


e) Determinación de la fiabilidad y objetivi- 
dad de las medidas. 


Esta evaluación ya no es una simple medición, 
porque supone un juicio de valor sobre la infor- 
mación recogida. Se alude, aunque sin desarro- 
llar, a la toma de decisiones sobre los aciertos o 
fracasos de la programación, en función de los 
resultados de los alumnos, algo que retomarán 
otros importantes evaluadores como Cronbach y 
Sufflebeam unos años después. 


Para Tyler, la referencia central en la evalua- 
ción son los objetivos preestablecidos, que deben 
ser cuidadosamente definidos en términos de 
conducta (Mager, 1962), teniendo en cuenta que 
deben marcar el desarrollo individual del alum- 
no, pero dentro de un proceso socializador. 


El objeto del proceso evaluativo es determinar 
el cambio ocurrido en los alumnos, pero su fun- 


ción es más amplia que el hacer explícito este 
cambio a los propios alumnos, padres y profe- 
sores; es también un medio para informar sobre 
la eficacia del programa educacional y también 
de educación continua del profesor. Se trata, 
según Guba y Lincoln (1989), de la segunda 
generación de la evaluación. Desgraciadamen- 
te, esta visión evaluativa global no fue 
suficientemente apreciada, ni explotada, por 
aquellos que utilizaron sus trabajos (Bloom y 
otros, 1975; Guba y Lincoln, 1982). 


A pesar de lo anterior y de que las reformas 
tylerianas no siempre se aplicaron de inmedia- 
to, las ideas de Tyler fueron muy bien acogidas 
por los especialistas en desarrollo curricular y 
por los profesores. Su esquema era racional y 
se apoyaba en una tecnología clara, fácil de 
entender y aplicar (Guba y Lincoln, 1982; 
House, 1989) y encajaba perfectamente en la 
racionalidad del análisis de la tarea que comen- 
zaba a usarse con éxito en ámbitos educativos 
militares (Gagné, 1971). En España, los plan- 
teamientos de Tyler se extendieron con la Ley 
General de Educación de 1970. 


Tras la Segunda Guerra Mundial se produce 
un periodo de expansión y optimismo que Stuf- 
flebeam y Shinkfield (1987) no han dudado en 
calificar de «irresponsabilidad social», por el 
gran despilfarro consumista tras una época de 
recesión. Se trata de la etapa conocida como la 
de la inocencia (Madaus y otros, 1991). Se 
extienden mucho las instituciones y servicios 
educativos de todo tipo, se producen cantidad 
de tests estandarizados, se avanza en la tecno- 
logía de la medición y en los principios estadís- 
ticos del diseño experimental (Gulliksen, 1950; 
Lindquist, 1953; Walberg y Haertel, 1990) y 
aparecen las famosas taxonomías de los objeti- 
vos educativos (Bloom y otros, 1956; Krath- 
wohl y otros, 1964). Sin embargo, en esta épo- 
ca, la aportación de la evaluación a la mejora 
de la enseñanza es escasa debido a la carencia 
de planes coherentes de acción. Se escribe mu- 
cho de evaluación, pero con escasa influencia 
en el perfeccionamiento de la labor instruccio- 
nal. El verdadero desarrollo de las propuestas 
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tylerianas vino después (Taba, 1962; Popham y 
Baker, 1970; Fernandez de Castro, 1973). 


Ralph W. Tyler murió el 18 de febrero de 
1994, superados los noventa años de vida, tras 
siete décadas de fructíferas aportaciones y servi- 
cios a la evaluación, a la investigación y a la edu- 
cación en general. Unos meses antes, en abril de 
1993, Pamela Perfumo, una estudiante graduada 
de la Universidad de Stanford, entrevistó a Tyler 
con el propósito de conocer su pensamiento acer- 
ca del actual desarrollo de la evaluación y de los 
temas controvertidos alrededor de la misma. Esta 
entrevista, convenientemente preparada, fue 
presentada el 16 de abril de 1993 en la Conferen- 
cia de la AERA que tuvo lugar en Atlanta. 
Horowitz (1995) analiza el contenido y el signi- 
ficado de la citada entrevista, destacando, entre 
otros, los siguientes aspectos en el pensamiento 
de Tyler al final de sus días: 


a) Necesidad de analizar cuidadosamente los 
propósitos de la evaluación, antes de ponerse a 
evaluar. Los actuales planteamientos de eva- 
luaciones múltiples y alternativas deben ajus- 
tarse a este principio 


b) El propósito más importante en la evalua- 
ción de los alumnos es guiar su aprendizaje, 
esto es, ayudarles a que aprendan. Para ello es 
necesaria una evaluación comprensiva de to- 
dos los aspectos significativos de su rendi- 
miento; no basta con asegurarse que hacen re- 
gularmente el trabajo diario. 


c) El «portfolio» es un instrumento valioso de 
evaluación, pero depende de su contenido. En 
todo caso, hay que ser cauteloso ante la pre- 
ponderancia de un solo procedimiento de eva- 
luación, incluyendo el «portfolio», por su in- 
capacidad de abarcar todo el espectro de as- 
pectos evaluables. 


d) La verdadera evaluación debe ser idiosin- 
crásica, adecuada a las peculiaridades del 
alumno y el centro. En rigor, la comparación 
de centros no es posible. 


e) Los profesores deben rendir cuentas de su 
acción educativa ante los padres de los alum- 


nos. Para ello, es necesario interaccionar con 
ellos de manera más frecuente y más infor- 
mal. 


Medio siglo después de que Tyler 
revolucionara el mundo de la evaluación 
educativa, se observa la fortaleza, coherencia y 
vigencia de su pensamiento. Como acabamos 
de ver, sus ideas básicas, convenientemente 
actualizadas, se entroncan fácilmente en las 
corrientes más actuales de la evaluación 


educativa. 
4. El desarrollo de los sesenta 


Los años sesenta traerán nuevos aires a la 
evaluación educativa, entre otras cosas porque 
se empezó a prestar interés por algunas de las 
llamadas de atención de Tyler, relacionadas 
con la eficacia de los programas y el valor in- 
trínseco de la evaluación para la mejora de la 
educación. 


En esa época surge un cierto conflicto entre 
la sociedad americana y su sistema educativo, 
sobre todo porque los rusos iban por delante en 
la carrera especial, tras el lanzamiento del 
Sputnik por la URSS en 1957. Aparece un cier- 
to desencanto con la escuela pública y crece la 
presión por la rendición de cuentas (MacDo- 
nald, 1976; Stenhouse, 1984). En 1958 se pro- 
mulga una nueva ley de defensa educativa que 
proporciona muchos programas y medios para 
evaluarlos. En 1964 se establece el Acta de 
educación primaria y secundaria (ESEA) y se 
crea el National Study Comitte on Evaluation, 
creándose una nueva evaluación no sólo de 
alumnos, sino orientada a incidir en los pro- 
gramas y en la práctica educativa global (Ma- 
teo y otros, 1993; Rodríguez y otros, 1995). 


Para mejorar la situación y retomar la hege- 
monía científica y educativa, fueron muchos 
los millones de dólares que desde los fondos 
públicos se destinaron a subvencionar nuevos 
programas educativos e iniciativas del personal 
de las escuelas públicas americanas encamina- 
das a mejorar la calidad de la enseñanza. (Po- 
pham, 1983; Rutman y Mowbray, 1983; Weiss, 
1983). Este movimiento se vio también poten- 
ciado por el desarrollo de nuevos medios 
tecnológicos (audiovisuales, ordenadores...) y 
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nológicos (audiovisuales, ordenadores...) y el de 
la enseñanza programada, cuyas posibilidades 
educativas despertaron el interés entre los profe- 
sionales de la educación (Rosenthal, 1976). 


De la misma forma que la proliferación de 
programas sociales en la década anterior había 
impulsado la evaluación de programas en el área 
social, los años sesenta serán fructíferos en de- 
manda de evaluación en el ámbito de la educa- 
ción. Esta nueva dinámica en la que entra la eva- 
luación, hace que, aunque ésta se centraba en los 
alumnos como sujeto que aprende, y el objeto de 
valoración era el rendimiento de los mismos, sus 
funciones, su enfoque y su última interpretación 
variará según el tipo de decisión buscada. 


Buena parte de culpa de este fuerte ímpetu eva- 
luador americano se debió a la ya citada aproba- 
ción de la «Elementary and Secondary Act» 
(ESEA) en 1965 (Berk, 1981; Rutman, 1984). 
Con esta ley se puso en marcha el primer pro- 
grama significativo para la organización de la 
educación en el ámbito federal de los Estados 
Unidos, y se estipuló que cada uno de los pro- 
yectos realizados con el apoyo económico fede- 
ral debía ser anualmente evaluado, a fin de justi- 
ficar subvenciones futuras. 


Junto al desencanto de la escuela pública, cabe 
señalar la recesión económica que caracteriza los 
finales años sesenta, y, sobre todo, la década de 
los setenta. Ello hizo que la población civil, co- 
mo contribuyentes, y los propios legisladores se 
preocupasen por la eficacia y el rendimiento del 
dinero que se empleaba en la mejora del sistema 
escolar. A finales de los años sesenta, y como 
consecuencia de lo anterior, entra en escena un 
nuevo movimiento, la era de la «Accountability», 
de la rendición de cuentas (Popham, 1980 y 
1983; Rutman y Mowbray, 1983), que se asocia 
fundamentalmente a la responsabilidad del per- 
sonal docente en el logro de objetivos educativos 
establecidos. De hecho, en el año 1973, la legis- 
lación de muchos estados americanos instituyó la 
obligación de controlar el logro de los objetivos 
educativos y la adopción de medidas correctivas 
en caso negativo (MacDonald, 1976; Wilson y 
otros, 1978). Es comprensible que, planteado así, 


este movimiento de rendición de cuentas, de 
responsabilidad escolar, diera lugar a una olea- 
da de protestas por parte del personal docente. 


Otra dimensión de la responsabilidad escolar 
nos la ofrece Popham (1980), cuando se refiere 
al movimiento de descentralización escolar 
durante los últimos años sesenta y principios de 
los setenta. Los grandes distritos escolares se 
dividieron en áreas geográficas más pequeñas, 
y, por consiguiente, con un control ciudadano 
más directo sobre lo que ocurría en las escue- 
las. 


Como consecuencia de estos focos de in- 
fluencia, se amplió considerablemente el fe- 
nómeno de la evaluación educativa. El sujeto 
directo de la evaluación siguió siendo el alum- 
no, pero también todos aquellos factores que 
confluyen en el proceso educativo (el programa 
educativo en un sentido amplio, profesor, me- 
dios, contenidos, experiencias de aprendizaje, 
organización, etc.), así como el propio produc- 
to educativo. 


Como resultado de estas nuevas necesidades 
de la evaluación, se inicia durante esta época 
un periodo de reflexión y de ensayos teóricos 
con ánimo de clarificar la multidimensionali- 
dad del proceso evaluativo. Estas reflexiones 
teóricas enriquecerán decisivamente el ámbito 
conceptual y metodológico de la evaluación, lo 
que unido a la tremenda expansión de la eva- 
luación de programas ocurrida durante estos 
años, dará lugar al nacimiento de esa nueva 
modalidad de investigación aplicada que hoy 
denominamos como investigación evaluativa. 


Como hitos de la época hay que destacar dos 
ensayos por su decisiva influencia: el artículo 
de Cronbach (1963), Course improvement 
through evaluation, y el de Scriven (1967), The 
methodology of evaluation. La riqueza de ideas 
evaluativas expuestas en estos trabajos nos 
obligan a que, aunque brevemente, nos refira- 
mos a ellas. 


Del análisis que Cronbach del concepto, fun- 
ciones y metodología de la evaluación, entresa- 
camos las sugerencias siguientes: 
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a) Asociar el concepto de evaluación a la 
toma de decisiones. Distingue el autor tres ti- 
pos de decisiones educativas a las cuales la 
evaluación sirve: a) sobre el perfeccionamien- 
to del programa y de la instrucción, b) sobre 
los alumnos (necesidades y méritos finales) y 
c) acerca de la regulación administrativa sobre 
la calidad del sistema, profesores, organiza- 
ción, etc. De esta forma, Cronbach abre el 
campo conceptual y funcional de la evaluación 
educativa mucho más allá del marco concep- 
tual dado por Tyler, aunque en su línea de su- 
gerencias. 


b) La evaluación que se usa para mejorar un 
programa mientras éste se está aplicando, 
contribuye más al desarrollo de la educación 
que la evaluación usada para estimar el valor 
del producto de un programa ya concluido. 


c) Poner en cuestión la necesidad de que los 
estudios evaluativos sean de tipo comparativo. 
Entre las objeciones a este tipo de estudios, el 
autor destaca el hecho de que, con frecuencia, 
las diferencias entre las puntuaciones prome- 
dio entre-grupos son menores que las intra- 
grupos, así como otras referentes a las dificul- 
tades técnicas que en el marco educativo pre- 
sentan los diseños comparativos. Cronbach 
aboga por unos criterios de comparación de ti- 
po absoluto, reclamando la necesidad de una 
evaluación con referencia al criterio, al defen- 
der la valoración con relación a unos objetivos 
bien definidos y no la comparación con otros 
grupos. 


d) Se ponen en cuestión los estudios a gran 
escala, puesto que las diferencias entre los tra- 
tamientos pueden ser muy grandes e impedir 
discernir con claridad las causas de los resul- 
tados. Se defienden los estudios más analiti- 
cos, bien controlados, que pueden usarse para 
comparar versiones alternativas de un progra- 
ma. 


e) Metodológicamente Cronbach propone 
que la evaluación debe incluir: 1) estudios de 
proceso —hechos que tienen lugar en el aula—; 
2) medidas de rendimiento y actitudes — 
cambios observados en los alumnos- y 3) es- 


tudios de seguimientos, esto es, el camino 
posterior seguido por los estudiantes que han 
participado en el programa. 


f) Desde esta óptica, las técnicas de eva- 
luación no pueden limitarse a los tests de 
rendimiento. Los cuestionarios, las entrevis- 
tas, la observación sistemática y no sistemá- 
tica, las pruebas de ensayo, según el autor, 
ocupan un lugar importante en la evaluación, 
en contraste al casi exclusivo uso que se 
hacía de los tests como técnicas de recogida 
de información. 


Si estas reflexiones de Cronbach fueron im- 
pactantes, no lo fueron menos las del ensayo de 
Scriven (1967). Sus fecundas distinciones ter- 
minológicas ampliaron enormemente el campo 
semántico de la evaluación, a la vez que clari- 
ficaron el quehacer evaluativo. Destacamos a 
continuación las aportaciones más significati- 
vas: 


a) Se establece de forma tajante la diferen- 
cia entre la evaluación como actividad me- 
todológica, lo que el autor llama meta de la 
evaluación, y las funciones de la evaluación 
en un contexto particular. Así, la evaluación 
como actividad metodológica es esencial- 
mente igual, sea lo que fuera lo que estemos 
evaluando. El objetivo de la evaluación es 
invariante, supone en definitiva el proceso 
por el cual estimamos el valor de algo que se 
evalúa, mientras que las funciones de la eva- 
luación pueden ser enormemente variadas. 
Estas funciones se relacionan con el uso que 
se hace de la información recogida. 


b) Scriven señala dos funciones distintas 
que puede adoptar la evaluación: la for- 
mativa y la sumativa. Propone el término de 
evaluación formativa para calificar aquel 
proceso de evaluación al servicio de un pro- 
grama en desarrollo, con objeto de mejorar- 
lo, y el término de evaluación sumativa para 
aquel proceso orientado a comprobar la efi- 
cacia del programa y tomar decisiones sobre 
su continuidad. 
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c) Otra importante contribución de Scriven 
es la critica al énfasis que la evaluación da a la 
consecución de objetivos previamente estable- 
cidos, porque si los objetivos carecen de valor, 
no tiene ningún interés saber hasta qué punto 
se han conseguido. Resalta la necesidad de que 
la evaluación debe incluir tanto la evaluación 
de los propios objetivos como el determinar el 
grado en que éstos han sido alcanzados (Scri- 
ven, 1973 y 1974). 


d) Clarificadora es también la distinción que 
hace Scriven entre evaluación intrínseca y eva- 
luación extrínseca, como dos formas diferen- 
tes de valorar un elemento de la enseñanza. En 
una evaluación intrínseca se valora el elemen- 
to por sí mismo, mientras que en la evaluación 
extrínseca se valora el elemento por los efec- 
tos que produce en los alumnos. Esta distin- 
ción resulta muy importante a la hora de con- 
siderar el criterio a utilizar, pues en la evalua- 
ción intrínseca el criterio no se formula en 
términos de objetivos operativos, mientras que 
sí se hace en la evaluación extrínseca . 


e) Scriven adopta una posición contraria a 
Cronbach, defendiendo el carácter comparati- 
vo que deben presentar los estudios de evalua- 
ción. Admite con Cronbach los problemas téc- 
nicos que los estudios comparativos entrañan y 
la dificultad de explicar las diferencias entre 
programas, pero Scriven considera que la eva- 
luación como opuesta a la mera descripción 
implica emitir un juicio sobre la superioridad o 
inferioridad de lo que se evalúa con respecto a 
sus competidores o alternativas. 


Estas dos aportaciones comentadas influyeron 
decisivamente en la comunidad de evaluadores, 
incidiendo no sólo en estudios en la línea de la 
investigación evaluativa, a la que se referían pre- 
ferentemente, sino también en la evaluación 
orientada al sujeto, en la línea de evaluación co- 
mo «assessment» (Mateo, 1986). Estamos ante la 
tercera generación de la evaluación que, según 
Guba y Lincoln (1989), se caracteriza por intro- 
ducir la valoración, el juicio, como un contenido 
intrínseco en la evaluación. Ahora el evaluador 


no sólo analiza y describe la realidad, además, 
la valora, la juzga con relación a distintos crite- 
rios. 


Durante estos años sesenta aparecen muchas 
otras aportaciones que va perfilando una nueva 
concepción evaluativa, que terminará de des- 
arrollarse y, sobre todo, de extenderse en las 
décadas posteriores. Se percibe que el núcleo 
conceptual de la evaluación lo constituye la 
valoración del cambio ocurrido en el alumno 
como efecto de una situación educativa siste- 
mática, siendo unos objetivos bien formulados 
el mejor criterio para valorar este cambio. Así 
mismo, se comienza a prestar atención no sólo 
a los resultados pretendidos, sino también a los 
efectos laterales o no pretendidos, e incluso a 
resultados o efectos a largo plazo (Cronbach, 
1963; Glaser, 1963; Scriven, 1967; Stake, 
1967). 


A pesar de las voces críticas con la operativi- 
zación de objetivos (Eisner, 1967 y 1969; At- 
kin, 1968), no sólo por la estructura de valor 
que en ello subyace, sino también por centrar la 
valoración del aprendizaje en los productos 
más fácilmente mensurables, a veces los más 
bajos en las taxonomías del dominio cognosci- 
tivo, y de que se prestaba escasa atención a los 
objetivos del dominio afectivo, que presentan 
mayor dificultad de tratamiento operativo, el 
modelo evaluativo de Tyler se enriquecería 
mucho en estos años, con trabajos sobre los 
objetivos educativos que continuarían y perfec- 
cionarían el camino emprendido en 1956 por 
Bloom y colaboradores (Mager, 1962 y 1973; 
Lindvall, 1964; Krathwohl y otros, 1964; Gla- 
ser, 1965; Popham, 1970; Bloom y otros, 1971; 
Gagné 1971). Entre otras cosas aparecieron 
nuevas ideas sobre la evaluación de la interac- 
ción en el aula y sobre sus efectos en los logros 
de los alumnos (Baker, 1969). 


Stake (1967) propuso su modelo de evalua- 
ción, The countenance model, que sigue la lí- 
nea de Tyler, pero es más completo al conside- 
rar las discrepancias entre lo observado y lo 
esperado en los «antecedentes» y «transaccio- 
nes», y posibilitar algunas bases para elaborar 
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hipótesis acerca de las causas y los fallos en los 
resultados finales. En sus sucesivas propuestas, 
Stake se ira distanciando de sus posiciones ini- 
ciales. 


Metfessell y Michael (1967) presentaron tam- 
bién un modelo de evaluación de la efectividad 
de un programa educativo en el cual, aún si- 
guiendo el modelo básico de Tyler, proponían la 
utilización de una lista comprensiva de criterios 
diversos que los evaluadores podrían tener en 
cuenta en el momento de la valoración y, por 
consiguiente, no centrarse meramente en los co- 
nocimientos intelectuales alcanzados por los 
alumnos. 


Suchman (1967) profundiza en la convicción 
de que la evaluación debe basarse en datos obje- 
tivos que sean analizados con metodología cien- 
tífica, matizando que la investigación científica 
es preferentemente teórica y, en cambio, la inves- 
tigación evaluativa es siempre aplicada. Su prin- 
cipal propósito es descubrir la efectividad, éxito 
o fracaso de un programa al compararlo con los 
objetivos propuestos y, así, trazar las líneas de su 
posible redefinición. Esta investigación evaluati- 
va para Suchman debe tener en cuenta: a) la na- 
turaleza del destinatario del objetivo y la del pro- 
pio objetivo, b) el tiempo necesario para que se 
realice el cambio propuesto, c) el conocimiento 
de si los resultados esperados son dispersos o 
concentrados y d) los métodos que han de em- 
plearse para alcanzar los objetivos. Suchman, 
además, defiende la utilización de evaluadores 
externos para evitar todo tipo de tergiversación 
de los profesores muy implicados en los procesos 
instruccionales. 


El énfasis en los objetivos y su medida traerá 
también la necesidad de una nueva orientación a 
la evaluación, la denominada evaluación de refe- 
rencia criterial. La distinción introducida por 
Glaser (1963) entre mediciones referidas a nor- 
mas y criterios tendrá eco al final de la década de 
los sesenta, precisamente como resultado de las 
nuevas exigencias que a la evaluación educativa 
se le planteaban. Así, por ejemplo, cuando Ham- 
bleton (1985) estudia las diferencias entre tests 
referidos al criterio y tests referidos a la norma, 


señala para los primeros, además de los cono- 
cidos objetivos de describir la ejecución del 
sujeto y tomar decisiones sobre si domina o no 
domina un contenido, otro objetivo como es el 
de valorar la eficacia de un programa. 


Desde finales de los sesenta los especialistas 
se pronunciarán decisivamente a favor de la 
evaluación criterial, en cuanto que es el tipo de 
evaluación que suministra una información real 
y descriptiva del estatus del sujeto o sujetos 
respecto a los objetivos de enseñanza previstos, 
así como la valoración de ese estatus por com- 
paración con un estándar o criterio de realiza- 
ciones deseables, siendo irrelevantes, al efecto 
de contraste, los resultados obtenidos por otros 
sujetos o grupo de sujetos (Popham, 1970 y 
1983; Mager, 1973; Carreño, 1977; Gronlund, 
1985). 


En las prácticas evaluativas de esta década de 
los sesenta se observan dos niveles de actua- 
ción. Un nivel podemos calificarlo como la 
evaluación orientada hacia los individuos, 
fundamentalmente alumnos y profesores. El 
otro nivel, es el de la evaluación orientada a la 
toma de decisiones sobre el «instrumento» o 
«tratamiento» o «programa» educativo. Este 
último nivel, impulsado también por la evalua- 
ción de programas en el ámbito social, será la 
base para la consolidación en el terreno educa- 
tivo de la evaluación de programas y de la in- 
vestigación evaluativa. 


5. Desde los años setenta: La consolida- 
ción de la investigación evaluativa 


Si con algo se podría caracterizar las aporta- 
ciones teóricas que nos ofrecen los especialis- 
tas durante los años setenta es con la prolifera- 
ción de toda clase de modelos evaluativos que 
inundan el mercado bibliográfico, modelos de 
evaluación que expresan la propia óptica del 
autor que los propone sobre qué es y cómo de- 
be conducirse un proceso evaluativo. Se trata, 
por tanto, de una época caracterizada por la 
pluralidad conceptual y metodológica. Guba y 
Lincoln (1982) nos hablan de más de cuarenta 
modelos propuestos en estos años, y Mateo 
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(1986) se refiere a la eclosión de modelos. Estos 
enriquecerán considerablemente el vocabulario 
evaluativo, sin embargo, compartimos la idea de 
Popham (1980) de que algunos son demasiado 
complicados y otros utilizan una jerga bastante 
confusa. 


Algunos autores como Guba y Lincoln (1982), 
Pérez (1983) y en alguna medida House (1989), 
tienden a clasificar estos modelos en dos grandes 
grupos, cuantitativos y cualitativos, pero nosotros 
pensamos con Nevo (1983) y Cabrera (1986) que 
la situación es mucho más rica en matices. 


Es cierto que esas dos tendencias se observan 
hoy en las propuestas evaluativas, y que algunos 
modelos pueden ser representativos de ellas, pero 
los diferentes modelos, considerados particular- 
mente, se diferencian más por destacar o enfati- 
zar alguno o algunos de los componentes del 
proceso evaluativo y por la particular interpreta- 
ción que a este proceso le dan. Es desde esta 
perspectiva, a nuestro entender, como los dife- 
rentes modelos deben ser vistos, y valorar así sus 
respectivas aportaciones en los terrenos concep- 
tual y metodológico (Worthen y Sanders, 1973; 
Stufflebeam y Shinkfield, 1987; Arnal y otros, 
1992; Scriven, 1994). 


También son varios los autores (Lewy, 1976; 
Popham, 1980; Cronbach, 1982; Anderson y 
Ball, 1983; De la Orden, 1985) los que conside- 
ran los modelos no como excluyentes, sino más 
bien como complementarios y que el estudio de 
los mismos (al menos aquellos que han resultado 
ser más prácticos) llevará al evaluador a adoptar 
una visión más amplia y comprensiva de su tra- 
bajo. Nosotros, en algún momento nos hemos 
atrevido a hablar de enfoques modélicos, más 
que de modelos, puesto que es cada evaluador el 
que termina construyendo su propio modelo en 
cada investigación evaluativa, en función del tipo 
de trabajo y las circunstancias (Escudero, 1993). 


En este movimiento de propuestas de modelos 
de evaluación cabe distinguir dos épocas con 
marcadas diferencias conceptuales y metodológi- 
cas. En una primera época, las propuestas segui- 
an la línea expuesta por Tyler en su planteamien- 
to, que ha venido a llamarse de “Consecución de 


Metas”. Además de los ya citados de Stake y 
Metfessell y Michael, que corresponden a los 
últimos años sesenta, en esta época destacan la 
propuesta de Hammond (1983) y el Modelo de 
Discrepancia de Provus (1971). Para estos au- 
tores los objetivos propuestos siguen siendo el 
criterio fundamental de valoración, pero enfati- 
zan la necesidad de aportar datos sobre la con- 
gruencia o discrepancia entre las pautas de ins- 
trucción diseñadas y la ejecución de las mismas 
en la realidad del aula. 


Otros modelos consideran el proceso de eva- 
luación al servicio de las instancias que deben 
tomar decisiones. Ejemplos notables de ellos 
son: probablemente el más famoso y utilizado 
de todos, el C.I.P.P. (contexto, input, proceso y 
producto), propuesto por Stufflebeam y colabo- 
radores (1971) y el C.E.S. (toma sus siglas del 
Centro de la Universidad de California para el 
Estudio de la Evaluación) dirigido por Alkin 
(1969). La aportación conceptual y metodoló- 
gica de estos modelos es valorada positivamen- 
te entre la comunidad de evaluadores (Popham, 
1980; Guba y Lincoln, 1982; House, 1989). 
Estos autores van más allá de la evaluación 
centrada en resultados finales, puesto que en 
sus propuestas suponen diferentes tipos de eva- 
luación, según las necesidades de las decisio- 
nes a las que sirven. 


Una segunda época en la proliferación de 
modelos es la representada por los modelos 
alternativos, que con diferentes concepciones 
de la evaluación y de la metodología a seguir 
comienzan a aparecer en la segunda mitad de 
esta década de los setenta. Entre ellos destacan 
la Evaluación Responsable de Stake (1975 y 
1976), a la que se adhieren Guba y Lincoln 
(1982), la Evaluación Democrática de Mac- 
Donald (1976), la Evaluación Iluminativa de 
Parlett y Hamilton (1977) y la Evaluación co- 
mo crítica artística de Eisner (1985). 


En líneas generales, este segundo grupo de 
modelos evaluativos enfatiza el papel de la 
audiencia de la evaluación y de la relación del 
evaluador con ella. La audiencia prioritaria de 
la evaluación en estos modelos no es quien 
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debe tomar las decisiones, como en los modelos 
orientados a la toma de decisiones, ni el respon- 
sable de elaborar los curriculos u objetivos, como 
en los modelos de consecución de metas. La au- 
diencia prioritaria son los propios participantes 
del programa. La relación entre el evaluador y la 
audiencia en palabras de Guba y Lincoln (1982) 
debe ser «transaccional y fenomenológica». Se 
trata de modelos que propugnan una evaluación 
de tipo etnográfica, de aquí que la metodología 
que consideran más adecuada es la propia de la 
antropología social (Parlett y Hamilton, 1977; 
Guba y Lincoln, 1982; Pérez 1983). 


Este resumen de modelos de la época de eclo- 
sión es suficiente para aproximarnos al amplio 
abanico conceptual teórico y metodológico que 
hoy se relaciona con la evaluación. Ello explica 
que cuando Nevo (1983 y 1989) pretende realizar 
una conceptualización de la evaluación, a partir 
de la revisión de la literatura especializada, aten- 
diendo a los tópicos ¿qué es la evaluación? ¿qué 
funciones tiene? ¿cuál es el objeto de evalua- 
ción?... no encuentra una única respuesta a estas 
cuestiones. Es fácilmente comprensible que las 
exigencias que plantea la evaluación de progra- 
mas de una parte, y la evaluación para la toma de 
decisiones sobre los individuos de otra, conducen 
a una gran variedad de esquemas evaluativos 
reales utilizados por profesores, directores, ins- 
pectores y administradores públicos. Pero tam- 
bién es cierto que bajo esta diversidad subyacen 
diferentes concepciones teóricas y metodológicas 
sobre la evaluación. Diferentes concepciones que 
han dado lugar a una apertura y pluralidad con- 
ceptual en el ámbito de la evaluación en varios 
sentidos (Cabrera, 1986). A continuación desta- 
camos los puntos mas sobresalientes de esta plu- 
ralidad conceptual. 


a) Diferentes conceptos de evaluación. Por 
una parte existe la clásica definición dada por 
Tyler: la evaluación como el proceso de de- 
terminar el grado de congruencia entre las 
realizaciones y los objetivos previamente es- 
tablecidos, a la que corresponden los modelos 
orientados hacia la consecución de metas. 
Contrasta esta definición con aquella más am- 
plia que se propugna desde los modelos orien- 


tados a la toma de decisiones: la evaluación 
como el proceso de determinar, obtener y 
proporcionar información relevante para 
juzgar decisiones alternativas, defendida por 
Alkin (1969), Stufflebeam y otros (1971), 
MacDonald (1976) y Cronbach (1982). 


Además, el concepto de evaluación de Scri- 
ven (1967), como el proceso de estimar el 
valor o el mérito de algo, es retomado por 
Cronbach (1982), Guba y Lincoln (1982), y 
House (1989), con objeto de señalar las dife- 
rencias que comportarían los juicios valora- 
tivos en caso de estimar el mérito (se vincu- 
laría a características intrínsecas de lo que se 
evalúa) o el valor (se vincularía al uso y 
aplicación que tendría para un contexto de- 
terminado). 


b) Diferentes criterios. De las definiciones 
apuntadas anteriormente se desprende que el 
criterio a utilizar para la valoración de la in- 
formación también cambia. Desde la óptica 
de la consecución de metas, una buena y 
operativa definición de los objetivos consti- 
tuye el criterio fundamental. Desde la pers- 
pectiva de las decisiones y situados dentro 
de un contexto político, Stufflebeam y cola- 
boradores, Alkin y MacDonald llegan a su- 
gerir incluso la no valoración de la informa- 
ción por parte del evaluador, siendo el que 
toma las decisiones el responsable de su va- 
loración. 


Las definiciones de evaluación que acentú- 
an la determinación del «mérito» como obje- 
tivo de la evaluación, utilizan criterios es- 
tándares sobre los que los expertos o profe- 
sionales están de acuerdo. Se trata de mode- 
los relacionados con la acreditación y el en- 
juiciamiento profesional (Popham, 1980). 


Los autores (Stake, 1975; Parlett y Hamil- 
ton, 1977; Guba y Lincoln, 1982; House, 
1983) que acentúan el proceso de evaluación 
al servicio de determinar el «valor» más que 
el «mérito» de la entidad u objeto evaluado, 
abogan por que el criterio de valoración fun- 
damental sean las necesidades contextuales 
en las que ésta se inserta. Así, Guba y Lin- 
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coln (1982) refieren los términos de la compa- 
ración valorativa; de un lado, las característi- 
cas del objeto evaluado y, de otro, las necesi- 
dades, expectativas y valores del grupo a los 
que les afecta o con los que se relaciona el ob- 
jeto evaluado. 


c) Pluralidad de procesos evaluativos de- 
pendiendo de la percepción teórica que sobre 
la evaluación se mantenga. Los modelos de 
evaluación citados y otros más que pueden en- 
contrarse en la bibliografía, representan dife- 
rentes propuestas para conducir una evalua- 
ción. 


d) Pluralidad de objetos de evaluación. Co- 
mo dice Nevo (1983 y 1989), existen dos con- 
clusiones importantes que se obtienen de la 
revisión de la bibliografía sobre la evaluación. 
Por un lado, cualquier cosa puede ser objeto 
de evaluación y ésta no debería limitarse a es- 
tudiantes y profesores y, por otro, una clara 
identificación del objeto de evaluación es una 
importante parte en cualquier diseño de eva- 
luación. 


e) Apertura, reconocida en general por todos 
los autores, de la información necesaria en un 
proceso evaluativo para dar cabida no sólo a 
los resultados pretendidos, sino a los efectos 
posibles de un programa educativo, sea pre- 
tendido o no. Incluso Scriven (1973 y 1974) 
propone una evaluación en la que no se tenga 
en cuenta los objetivos pretendidos, sino valo- 
rar todos los efectos posibles. Apertura tam- 
bién respecto a la recogida de información no 
sólo del producto final, sino también sobre el 
proceso educativo. Y apertura en la considera- 
ción de diferentes resultados de corto y largo 
alcance. Por último, apertura también en con- 
siderar no sólo resultados de tipo cognitivo, 
sino también afectivos (Anderson y Ball, 
1983). 


f) Pluralidad también reconocida de las fun- 
ciones de la evaluación en el ámbito educati- 
vo, recogiéndose la propuesta de Scriven entre 
evaluación formativa y sumativa, y añadiéndo- 
se otras de tipo socio-político y administrati- 
vas (Nevo, 1983). 


g) Diferencias en el papel jugado por el 
evaluador, lo que ha venido a llamarse eva- 
luación interna vs. evaluación externa. No 
obstante, una relación directa entre el eva- 
luador y las diferentes audiencias de la eva- 
luación es reconocida por la mayoría de los 
autores (Nevo, 1983; Weiss, 1983; Rutman, 
1984). 


h) Pluralidad de audiencia de la evalua- 
ción y, por consiguiente, pluralidad en los 
informes de evaluación. Desde informes na- 
rrativos, informales, hasta informes muy es- 
tructurados (Anderson y Ball, 1983). 


i) Pluralidad metodológica. Las cuestiones 
metodológicas surgen desde la dimensión de 
la evaluación como investigación evaluativa, 
que viene definida en gran medida por la di- 
versidad metodológica. 


El anterior resumen recoge las aportaciones 
a la evaluación en los años setenta y ochenta, la 
época que se ha denominado época de la pro- 
fesionalización (Stufflebeam y  Skinkfield, 
1987; Madaus y otros, 1991; Hernández, 1993; 
Mateo y otros, 1993), en la que además de los 
innumerables modelos de los setenta, se pro- 
fundizó en los planteamientos teóricos y prác- 
ticos y se consolidó la evaluación como inves- 
tigación evaluativa en los términos antes defi- 
nida. En este contexto, lógicamente, aparecen 
muchas nuevas revistas especializadas como 
Educational Evaluation and Policy Analysis, 
Studies in Evaluation, Evaluation Review, New 
Directions for Program Evaluation, Evaluation 
and Program Planning, Evaluation News,..., Se 
fundan asociaciones científicas relacionadas 
con el desarrollo de la evaluación y las univer- 
sidades empiezan a ofrecer cursos y programas 
de investigación evaluativa, no sólo en post- 
grados y programas de doctorado, sino también 
en planes de estudio para titulaciones de primer 
y segundo ciclos. 


6. La cuarta generación según Guba y 
Lincoln 


A finales de los ochenta, tras todo este 
desarrollo antes descrito, Guba y Lincoln 
(1989) ofrecen una alternativa evaluadora, que 
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ofrecen una alternativa evaluadora, que denomi- 
nan cuarta generacion, pretendiendo superar lo 
que según estos autores son deficiencias de las 
tres generaciones anteriores, tales como una vi- 
sión gestora de la evaluación, una escasa aten- 
ción al pluralismo de valores y un excesivo ape- 
go al paradigma positivista. La alternativa de 
Guba y Lincoln la denominan respondente y 
constructivista, integrando de alguna manera el 
enfoque respondente propuesto en primer lugar 
por Stake (1975), y la epistemología postmoder- 
na del constructivismo (Russell y Willinsky, 
1997). Las demandas, las preocupaciones y los 
asuntos de los implicados o responsables (stake- 
holders) sirven como foco organizativo de la 
evaluación (como base para determinar qué in- 
formación se necesita), que se lleva a cabo dentro 
de los planteamientos metodológicos del para- 
digma constructivista. 


La utilización de las demandas, preocupaciones 
y asuntos de los implicados es necesaria, según 
Guba y Lincoln, porque: 


a) Son grupos de riesgo ante la evaluación y 
sus problemas deben ser convenientemente 
contemplados, de manera que se sientan pro- 
tegidos ante tal riesgo. 


b) Los resultados pueden ser utilizados en su 
contra en diferentes sentidos, sobre todo si es- 
tán al margen del proceso. 


c) Son potenciales usuarios de la informa- 
ción resultante de la evaluación. 


d) Pueden ampliar y mejorar el rango de la 
evaluación. 


e) Se produce una interacción positiva entre 
los distintos implicados. 


El cambio paradigmático lo justifican estos 
autores porque: 


a) La metodología convencional no contem- 
pla la necesidad de identificar las demandas, 
preocupaciones y asuntos de los implicados. 


b) Para llevar a cabo lo anterior se necesita 
una postura de descubrimiento más que de 
verificación, típica del positivismo. 


c) No se tienen en cuenta suficientemente 
los factores contextuales. 


d) No se proporcionan medios para valora- 
ciones caso por caso. 


e) La supuesta neutralidad de la metodolo- 
gía convencional es de dudosa utilidad 
cuando se buscan juicios de valor acerca de 
un objeto social. 


Partiendo de estas premisas, el evaluador es 
responsable de determinadas tareas, que reali- 
zará secuencialmente o en paralelo, constru- 
yendo un proceso ordenado y sistemático de 
trabajo. Las responsabilidades básicas del eva- 
luador de la cuarta generación son las siguien- 
tes: 


1) Identificar todos los implicados con 
riesgo en la evaluación. 


2) Resaltar para cada grupo de implicados 
sus construcciones acerca de lo evaluado y 
sus demandas y preocupaciones al respecto. 


3) Proporcionar un contexto y una metodo- 
logía hermenéutica para poder tener en cuen- 
ta, comprender y criticar las diferentes cons- 
trucciones, demandas y preocupaciones. 


4) Generar el máximo acuerdo posible 
acerca de dichas construcciones, demandas y 
preocupaciones. 


5) Preparar una agenda para la negociación 
acerca de temas no consensuados. 


6) Recoger y proporcionar la información 
necesaria para la negociación. 


7) Formar y hacer de mediador para un 
«forum» de implicados para la negociación. 


8) Desarrollar y elaborar informes para ca- 
da grupo de implicados sobre los distintos 
acuerdos y resoluciones acerca de los intere- 
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ses propios y de los de otros grupos (Stake, 
1986; Zeller, 1987). 


9) Reciclar la evaluación siempre que queden 
asuntos pendientes de resolución. 


La propuesta de Guba y Lincoln (1989) se ex- 
tiende bastante en la explicación de la naturaleza 
y características del paradigma constructivista en 
contraposición con las del positivista. 


Cuando se habla de los pasos o fases de la eva- 
luación en esta cuarta generación, sus proponen- 
tes citan doce pasos o fases, con diferentes subfa- 
ses en cada una de estas. Estos pasos son los si- 
guientes: 


1) Establecimiento de un contrato con un pa- 
trocinador o cliente. 


Identificación del cliente o patrocinador 
de la evaluación. 


«Identificación del objeto de la evaluación. 


*Propósito de la evaluación (Guba y Lin- 
coln, 1982). 


*Acuerdo con el cliente por el tipo de eva- 
luacion. 


«Identificación de audiencias. 


«Breve descripción de la metodología a 
usar. 


«Garantía de acceso a registros y documen- 
tos. 


eAcuerdo por garantizar la confidenciali- 
dad y anonimato hasta donde sea posible. 


«Descripción del tipo de informe a elabo- 
rar. 


Listado de especificaciones técnicas. 


2) Organización para reciclar la investiga- 


*Consecucion de facilidades y acceso a la 
información (Lincoln y Guba, 1985). 


3) Identificación de las audiencias (Guba y 
Lincoln, 1982). 


*Agentes. 
*Beneficiarios. 
«Victimas. 


4) Desarrollo de construcciones conjuntas 
dentro de cada grupo o audiencia (Glaser y 
Strauss, 1967; Glaser, 1978; Lincoln y Gu- 
ba, 1985). 


5) Contraste y desarrollo de las construc- 
ciones conjuntas de las audiencias. 


«Documentos y registros. 
*Observación. 

«Literatura profesional. 

«Círculos de otras audiencias. 
*Construcción ética del evaluador. 


6) Clasificación de las demandas, preocu- 
paciones y asuntos resueltos. 


7) Establecimiento de prioridades en los 
temas no resueltos. 


8) Recogida de información. 


9) Preparación de la agenda para la nego- 
ciación. 


10) Desarrollo de la negociación. 


11) Informes (Zeller, 1987; Licoln y Guba, 
1988). 


12) Reciclado/revisión. 


Para juzgar la calidad de la evaluación, se 


ción. nos ofrecen tres enfoques que se denominan 
paralelo, el ligado al proceso hermenéutico y 
«Selección y entrenamiento del equipo eva- el de autenticidad. 


luador. 
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Los criterios paralelos, de confianza, se deno- 
minan asi porque intentan ser paralelos a los cri- 
terios de rigor utilizados muchos años dentro del 
paradigma convencional. Estos criterios han sido 
validez interna y externa, fiabilidad y objetivi- 
dad. Sin embargo, los criterios deban ser acordes 
con el paradigma fundamentador (Morgan, 
1983). En el caso de la cuarta generación los 
criterios que se ofrecen son los de credibilidad, 
transferencia, dependencia y confirmación (Lin- 
coln y Guba, 1986). 


El criterio de credibilidad es paralelo al de va- 
lidez interna, de forma que la idea de isomorfis- 
mo entre los hallazgos y la realidad se reemplaza 
por el isomorfismo entre las realidades construi- 
das de las audiencias y las reconstrucciones del 
evaluador atribuidas a ellas. Para conseguir esto 
existen varias técnicas, entre las que destacan las 
siguientes: a) el compromiso prolongado, b) la 
observación persistente, c) el contraste con cole- 
gas, d) el análisis de casos negativos (Kidder, 
1981), e) la subjetividad progresiva y f) el con- 
trol de los miembros. La transferencia puede 
verse como paralela a la validez externa, la de- 
pendencia es paralela al criterio de fiabilidad y la 
confirmación puede verse como paralela a la 
objetividad. 


Otra manera de juzgar la calidad de la evalua- 
ción es el análisis dentro del propio proceso, algo 
que encaja con el paradigma hermenéutico, a 
través de un proceso dialéctico. 


Pero estos dos tipos de criterios, aunque útiles, 
no son del todo satisfactorios para Guba y Lin- 
coln, que defienden con más ahínco los criterios 
que denominan de autenticidad, también de base 
constructivista. Estos criterios incluyen los si- 
guientes: a) imparcialidad, justicia, b) autentici- 
dad ontológica, c) autenticidad educativa, d) au- 
tenticidad catalítica y e) autenticidad táctica 
(Lincoln y Guba, 1986). 


Este análisis de la cuarta generación de pode- 
mos terminarlo con los rasgos con los que defi- 
nen Guba y Lincoln a la evaluación: 


a) La evaluación es un proceso sociopolítico. 


b) La evaluación es un proceso conjunto de 
colaboración. 


c) la evaluación es un proceso de enseñan- 
za/aprendizaje. 


d) La evaluación es un proceso continuo, 
recursivo y altamente divergente. 


e) La evaluación es un proceso emergente. 


f) La evaluación es un proceso con resul- 
tados impredecibles. 


g) La evaluación es un proceso que crea 
realidad. 


En esta evaluación, se retienen las caracterís- 
ticas del evaluador fruto de las tres primeras 
generaciones, esto es, la de técnico, la de ana- 
lista y la de juez, pero estas deben ampliarse 
con destrezas para recoger e interpretar datos 
cualitativos (Patton, 1980), con la de historia- 
dor e iluminador, con la de mediador de jui- 
cios, así como un papel más activo como eva- 
luador en un contexto socio-político concreto. 


Russell y Willinsky (1997) defienden las po- 
tencialidades del planteamiento de la cuarta 
generación para desarrollar formulaciones al- 
ternativas de práctica evaluadora entre los im- 
plicados, incrementando la probabilidad de que 
la evaluación sirva para mejorar la enseñanza 
escolar. Esto requiere por parte del profesorado 
el reconocimiento de otras posiciones, además 
de la suya, la implicación de todos desde el 
principio del proceso y, por otra parte, el desa- 
rrollo de aproximaciones más pragmáticas de 
la conceptualización de Guba y Lincoln, adap- 
tadas a las distintas realidades escolares. 


7. El nuevo impulso alrededor de Stuf- 
flebeam 


Para terminar este recorrido analítico- 
histórico desde los primeros intentos de medi- 
ción educativa hasta la actual investigación 
evaluativa en educación, queremos recoger las 
recomendaciones que más recientemente nos 
viene ofreciendo una de las figuras señeras de 
este campo en la segunda mitad del siglo XX. 
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Nos estamos refiriendo a Daniel L. Stufflebeam, 
proponente del modelo CIPP (el mas utilizado) a 
finales de los sesenta, desde 1975 a 1988 presi- 
dente del «Joint Committee on Standars for Edu- 
cational Evaluation» y actual director del «Eva- 
luation Center» de la Western Michigan Univer- 
sity (sede del Joint Committee) y del CREATE 
(Center for Research on Educational Accounta- 
bility and Teacher Evaluation), centro auspiciado 
y financiado por el Departamento de Educación 
del gobierno americano. 


Recogiendo estas recomendaciones (Stuffle- 
beam, 1994, 1998, 1999, 2000 y 2001), en las 
que se han ido integrando ideas de diversos eva- 
luadores también notables, no sólo ofrecemos 
una de las últimas aportaciones a la actual con- 
cepción de la investigación evaluativa en educa- 
ción, sino que completamos en buena medida la 
visión del panorama actual, rico y plural, tras 
analizar la cuarta generación de Guba y Lincoln. 


Se parte de los cuatro principios del Joint 
Committee (1981 y 1988), esto es, de la idea de 
que cualquier buen trabajo de investigación eva- 
luativa debe ser: a) útil, esto es, proporcionar 
información a tiempo e influir, b) factible, esto 
es, debe suponer un esfuerzo razonable y debe 
ser políticamente viable, c) apropiada, adecua- 
da, legítima, esto es, ética y justa con los impli- 
cados, y d) segura y precisa a la hora de ofrecer 
información y juicios sobre el objeto de la eva- 
luación. Además, la evaluación se ve como una 
«transdisciplina», pues es aplicable a muchas 
disciplinas diferentes y a muchos objetos diver- 
sos (Scriven, 1994). 


Stufflebeam invoca a la responsabilidad del 
evaluador, que debe actuar de acuerdo a princi- 
pios aceptados por la sociedad y a criterios de 
profesionalidad, emitir juicios sobre la calidad y 
el valor educativo del objeto evaluado y debe 
asistir a los implicados en la interpretación y 
utilización de su información y sus juicios. Sin 
embargo, es también su deber, y su derecho, estar 
al margen de la lucha y la responsabilidad políti- 
ca por la toma de decisiones y por las decisiones 
tomadas. 


Para evaluar la educación en una sociedad 
moderna, Stufflebeam (1994) nos dice que se 
deben tomar algunos criterios básicos de refe- 
rencia como los siguientes: 


*Las necesidades educativas. Es necesario 
preguntarse si la educación que se propor- 
ciona cubre las necesidades de los estudian- 
tes y de sus familias en todos los terrenos a 
la vista de los derechos básicos, en este caso, 
dentro de una sociedad democrática (Nowa- 
kowski y otros, 1985). 


eLa equidad. Hay que preguntarse si el sis- 
tema es justo y equitativo a la hora de pro- 
porcionar servicios educativos, el acceso a 
los mismos, la consecución de metas, el de- 
sarrollo de aspiraciones y la cobertura para 
todos los sectores de la comunidad (Kella- 
gan, 1982). 


eLa factibilidad. Hay que cuestionar la efi- 
ciencia en la utilización y distribución de re- 
cursos, la adecuación y viabilidad de las 
normas legales, el compromiso y participa- 
ción de los implicados y todo lo que hace 
que el esfuerzo educativo produzca el 
máximo de frutos posibles. 


eLa excelencia como objetivo permanente 
de búsqueda. La mejora de la calidad, a par- 
tir del análisis de las prácticas pasadas y pre- 
sentes es uno de los fundamentos de la in- 
vestigación evaluativa. 


Tomando el referente de estos criterios y sus 
derivaciones, Stufflebeam sumariza una serie 
de recomendaciones para llevar a cabo buenas 
investigaciones evaluativas y mejorar el siste- 
ma educativo. Estas recomendaciones son las 
siguientes: 


1) Los planes de evaluación deben satisfa- 
cer los cuatro requerimientos de utilidad, 
factibilidad, legitimidad y precisión (Joint 
Committee, 1981 y 1988). 

2) Las 


entidades educativas deben 


examinarse por su integración y servicio a 
los principios de la sociedad democrática, 
equidad, bienestar, etc. 
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3) Las entidades educativas deben ser valo- 
radas tanto por su mérito (valor intrínseco, ca- 
lidad respecto a criterios generales) como por 
su valor (valor extrínseco, calidad y servicio 
para un contexto particular) (Guba y Lincoln, 
1982; Scriven, 1991), como por su significa- 
ción en la realidad del contexto en el que se 
ubica. Scriven (1998) nos señala que usando 
otras denominaciones habituales, mérito tiene 
bastante equivalencia con el término calidad, 
valor con el de relación coste-eficacia y signi- 
ficación con el de importancia. En todo caso, 
los tres conceptos son dependientes del con- 
texto, sobre todo significación, de manera que 
entender la diferencia entre dependencia del 
contexto y arbitrariedad es parte de la com- 
prensión de la lógica de la evaluación. 


4) La evaluación de profesores, instituciones 
educativas, programas, etc, debe relacionarse 
siempre con el conjunto de sus deberes, res- 
ponsabilidades y obligaciones profesionales o 
institucionales, etc. Quizás uno de los retos 
que deben abordar los sistemas educativos es 
la definición más clara y precisa de estos de- 
beres y responsabilidades. Sin ello, la eva- 
luación es problemática, incluso en el terreno 
formativo (Scriven, 1991a). 


5) Los estudios evaluativos deben ser capa- 
ces de valorar hasta qué medida los profesores 
y las instituciones educativas son responsables 
y rinden cuentas del cumplimiento de sus de- 
beres y obligaciones profesionales (Scriven, 
1994). 


6) Los estudios evaluativos deben proporcio- 
nar direcciones para la mejora, porque no bas- 
ta con emitir un juicio sobre el mérito o el va- 
lor de algo. 


7) Recogiendo los puntos anteriores, todo es- 
tudio evaluativo debe tener un componente 
formativo y otro sumativo. 


8) Se debe promover la autoevaluación pro- 
fesional, proporcionando a los educadores las 
destrezas para ello y favoreciendo actitudes 
positivas hacia ella (Madaus y otros, 1991) 


9) La evaluación del contexto (necesida- 
des, oportunidades, problemas en un área,...) 
debe emplearse de manera prospectiva, para 
localizar bien las metas y objetivos y definir 
prioridades. Asimismo, la evaluación del 
contexto debe utilizarse retrospectivamente, 
para juzgar bien el valor de los servicios y 
resultados educativos, en relación con las 
necesidades de los estudiantes (Madaus y 
otros, 1991; Scriven, 1991) 


10) La evaluación de las entradas (inputs) 
debe emplearse de manera prospectiva, para 
asegurar el uso de un rango adecuado de en- 
foques según las necesidades y los planes. 


11) La evaluación del proceso debe usarse 
de manera prospectiva para mejorar el plan 
de trabajo, pero también de manera retros- 
pectiva para juzgar hasta qué punto la cali- 
dad del proceso determina el por qué los re- 
sultados son de un nivel u otro (Stufflebean 
y Shinkfield, 1987). 


12) La evaluación del producto es el medio 
para identificar los resultados buscados y no 
buscados en los participantes o afectados por 
el objeto evaluado. Se necesita una valora- 
ción prospectiva de los resultados para 
orientar el proceso y detectar zonas de nece- 
sidades. Se necesita una evaluación retros- 
pectiva del producto para poder juzgar en 
conjunto el mérito y el valor del objeto eva- 
luado (Scriven, 1991; Webster y Edwards, 
1993; Webster y otros, 1994). 


13) Los estudios evaluativos se deben apo- 
yar en la comunicación y en la inclusión sus- 
tantiva y funcional de los implicados (stake- 
holders) con las cuestiones claves, criterios, 
hallazgos e implicaciones de la evaluación, 
así como en la promoción de la aceptación y 
el uso de sus resultados (Chelimsky, 1998). 
Más aún, los estudios evaluativos deben 
conceptualizarse y utilizarse 


sistemáticamente como parte del proceso de 
mejora educativa a largo plazo (Alkin y 
otros, 1979; Joint Committee, 1988; Stronge 
y Helm, 1991; Keefe, 1994) y de 
fundamento para la acción contra las 
discriminaciones sociales (Mertens, 1999). 
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(Mertens, 1999). La evaluacion para el desa- 
rrollo (empowerment evaluation), que defien- 
de Fetterman (1994), es un procedimiento, de 
base democrática, de participación de los im- 
plicados en el programa evaluado, para pro- 
mover la autonomía de los mismos en la reso- 
lución de sus problemas. Weiss (1998) nos 
alerta de que la evaluación participativa in- 
crementa la probabilidad de que se utilicen los 
resultados de la evaluación, pero también la de 
que sea conservadora en su concepción, pues 
es difícil pensar que los responsables de una 
organización pongan en cuestión el fundamen- 
to y el sistema de poder de la misma. Gene- 
ralmente su interés es el cambio de cosas pe- 
queñas. 


14) Los estudios evaluativos deben emplear 
múltiples perspectivas, múltiples medidas de 
resultados, y métodos tanto cuantitativos co- 
mo cualitativos para recoger y analizar la in- 
formación. La pluralidad y complejidad del 
fenómeno educativo hace necesario emplear 
enfoques múltiples y multidimensionales en 
los estudios evaluativos (Scriven, 1991) 


15) Los estudios evaluativos deben ser evalua- 
dos, incluyendo metaevaluaciones formativas 
para mejorar su calidad y su uso y metaeva- 
luaciones sumativas para ayudar a los usuarios 
en la interpretación de sus hallazgos y propor- 
cionar sugerencias para mejorar futuras eva- 
luaciones (Joint Committee, 1981 y 1988; Ma- 
daus y otros, 1991; Scriven, 1991; Stuffle- 
beam, 2001). 


Estas quince recomendaciones proporcionan 
elementos esenciales para un enfoque de los es- 
tudios evaluativos que Stufflebeam denomina 
objetivista y que se basa en la teoría ética de que 
la bondad moral es objetiva e independiente de 
los sentimientos personales o meramente huma- 
nos. 


Sin entrar en el debate sobre estas valoraciones 
finales de Stufflebeam, ni en análisis comparati- 
vos con otras propuestas, por ejemplo con las de 
Guba y Lincoln (1989), nos resulta evidente que 
las concepciones de la investigación evaluativa 
son diversas, dependiendo del origen epistemo- 


lógico desde el que se parte, pero apareciendo 
claros y contundentes algunos elementos co- 
munes a todas las perspectivas como la contex- 
tualización, el servicio a la sociedad, la diver- 
sidad metodológica, la atención, respeto y par- 
ticipación de los implicados, etc., así como una 
mayor profesionalización de los evaluadores y 
una mayor institucionalización de los estudios 
(Worthen y Sanders, 1991). 


El propio Stufflebeam (1998) reconoce el 
conflicto de los planteamientos del Joint Com- 
mittee on Standards for Educational Evalua- 
tion con las posiciones de la corriente evalua- 
dora denominada postmodernista, representada, 
además de por Guba y Lincoln, por otros reco- 
nocidos evaluadores como Mabry, Stake y 
Walker, pero no acepta que existan razones 
para actitudes de escepticismo y frustración 
con las prácticas evaluadoras actuales, porque 
existen muchos ámbitos de aproximación y el 
desarrollo de estándares de evaluación es 
perfectamente compatible con la atención a los 
diversos implicados, valores, contextos socia- 
les y métodos. Stufflebeam defiende una mayor 
colaboración en la mejora de las evaluaciones, 
estableciendo los estándares de manera partici- 
pativa, pues cree que es posible la aproxima- 
ción de planteamientos, con contribuciones 
importantes desde todos los puntos de vista. 


Weiss (1998) también toma posiciones pare- 
cidas cuando nos dice que las ideas constructi- 
vistas deben hacernos pensar más cuidadosa- 
mente al usar los resultados de las evaluacio- 
nes, sintetizarlas y establecer generalizaciones, 
pero duda que todo haya que interpretarlo en 
términos exclusivamente individuales, pues 
existen muchos elementos comunes entre las 
personas, los programas y las instituciones. 


8. Para concluir: síntesis de enfoques 
modélicos y metodológicos de la evalua- 
ción y la última perspectiva de Scriven 


Tras este análisis del desarrollo de la evalua- 
ción a lo largo del Siglo XX, parece oportuno, 
a modo de síntesis y de conclusión, recoger y 
resaltar los que son considerados los principa- 
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les modelos, planteamientos metodológicos, di- 
seños, perspectivas y visiones de la evaluación 
en la actualidad. Su análisis, de manera compac- 
ta, es un complemento necesario para una visión 
como la histórica que, por su linealidad, tiene el 
riesgo de ofrecer una imagen disciplinar artifi- 
ciosamente fraccionada. 


Hemos visto que en la década de los setenta y 
en sus alrededores se produce una especie de 
eclosión de propuestas evaluativas, que tradicio- 
nalmente han venido siendo denominadas como 
modelos (Castillo y Gento, 1995) y en algunos 
casos como diseños (Arnal y otros, 1992) de in- 
vestigación evaluativa. Sabemos que existieron 
varias decenas de estas propuestas, pero muy 
concentradas en el tiempo, en la década citada. 
De hecho, el asunto de los propuestos modelos 
para la evaluación parece un tema prácticamente 
cerrado desde hace cuatro lustros. Ya no surgen 
nuevos modelos o propuestas, salvo alguna ex- 
cepción como vemos más adelante. 


A pesar de lo dicho, se sigue hablando de mo- 
delos, métodos y diseños en la literatura especia- 
lizada, sobre todo buscando su clasificación de 
acuerdo con diversos criterios, origen paradigmá- 
tico, propósito, metodología, etc. También en las 
clasificaciones, no sólo en los modelos, existe 
diversidad, lo que prueba que, además de dina- 
mismo académico en el terreno de la investiga- 
ción evaluativa, todavía existe cierta debilidad 
teórica al respecto. 


Nosotros ya hemos señalado con anterioridad 
(Escudero, 1993), que coincidimos con Nevo 
(1983 y 1989) en la apreciación de que muchos 
de los acercamientos a la conceptualización de la 
evaluación (por ejemplo, el modelo respondiente, 
el libre de metas, el de discrepancias, etc.) se les 
ha denominado indebidamente como modelos a 
pesar de que ninguno de ellos tenga el grado de 
complejidad y de globalidad que debería acarrear 
el citado concepto. Lo que un texto clásico en 
evaluación (Worthen y Sanders, 1973) denomina 
como «modelos contemporáneos de evaluación» 
(a los conocidos planteamientos de Tyler, Scri- 
ven, Stake, Provus, Stufflebeam, etc), el propio 
Stake (1981) dice que sería mejor denominarlo 


como «persuasiones» mientras que House 
(1983) se refiere a «metáforas». 


Norris (1993) apunta que el concepto de mo- 
delo se utiliza con cierta ligereza al referirse a 
concepción, enfoque o incluso método de eva- 
luación. De Miguel (1989), por su parte, piensa 
que muchos de los llamados modelos solamen- 
te son descripciones de procesos o aproxima- 
ciones a programas de evaluación. Darling- 
Hammond y otros (1989) utilizan el término 
«modelo» por costumbre, pero indican que no 
lo hacen en el sentido preciso que tiene el tér- 
mino en las ciencias sociales, esto es, apoyán- 
dose en una estructura de supuestos interrela- 
cionales fundamentada teóricamente. Final- 
mente diremos que el propio autor del modelo 
CIPP, solamente utiliza esta denominación de 
manera sistemática para referirse a su propio 
modelo (Stufflebeam y Shinkfield, 1987), utili- 
zando los términos de enfoque, método, etc., al 
referirse a los otros. Para nosotros, quizás sea 
el término enfoque evaluativo el más apropia- 
do, aunque aceptemos seguir hablando de mo- 
delos y diseños por simple tradición académi- 
ca. 


Nuestra idea es que a la hora de plantearnos 
una investigación evaluativa, no contamos to- 
davía con unos pocos modelos bien fundamen- 
tados, definidos, estructurados y completos, 
entre los que elegir uno de ellos, pero sí tene- 
mos distintos enfoques modélicos y un amplio 
soporte teórico y empírico, que permiten al 
evaluador ir respondiendo de manera bastante 
adecuada a las distintas cuestiones que le va 
planteando el proceso de investigación, ayu- 
dándole a configurar un plan global, un orga- 
nigrama coherente, un «modelo» científica- 
mente robusto para llevar a cabo su evaluación 
(Escudero, 1993). ¿Cuáles son las cuestiones 
que hay que responder en este proceso de cons- 
trucción modélica? Apoyándonos en las apor- 
taciones de diferentes autores (Worthen y San- 
ders, 1973; Nevo, 1989; Kogan, 1989; Smith y 
Haver, 1990), deben responderse y delimitar su 
respuesta al construir un modelo de investiga- 
ción evaluativa, los aspectos siguientes: 
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1) Objeto de la investigación evaluativa. 
2) Propósito, objetivos. 


3) Audiencias/implicados/clientela. 


4) Enfasis/aspectos prioritarios o preferentes. 


5) Criterios de mérito o valor. 

6) Información a recoger. 

7) Métodos de recogida de información. 
8) Métodos de análisis. 

9) Agentes del proceso. 

10) Secuenciación del proceso. 

11) Informes/utilización de resultados. 


12) Límites de la evaluación. 


13) Evaluación de la propia investigación 
evaluativa / metaevaluación. 


Para definir estos elementos hay que buscar, 
lógicamente, el apoyo de los diferentes enfo- 
ques modélicos, métodos, procedimientos, etc., 
que la investigación evaluativa ha desarrollado, 
sobre todo en las últimas décadas. 


Volviendo a los denominados modelos de los 
setenta y a sus clasificaciones, podemos reco- 
ger algunas de las aparecidas en la última dé- 
cada en nuestro entorno académico, apoyándo- 
se en distintos autores. Así, por ejemplo, Arnal 
y otros (1992) ofrecen una clasificación de lo 
que denominan diseños de la investigación 
evaluativa, revisando las de diversos autores 
(Patton, 1980; Guba y Lincoln, 1982; Pérez, 
1983; Stufflebeam y Shinkfield, 1987). Esta 
clasificación es la siguiente : 


Tabla 1- Tipos de diseños de investigación educativa 


P ti Patton Guba y Lincoln Pérez Stufflebeam y Autores 
A (1980) (1982) (1983) Shinkfield (1987) creadores 
Objetivos Objetivos Objetivos Objetivos Tyler (1950) 
Empirico- Análisis sistemas Analisis sistemas She 0371) 1 
analítica | ossi y otros (1979) 
Metodo Suchman (1967) 
científico 
CIPP CIPP CIPP Stufflebeam (1966) 
Susceptibles Crítica artística Crítica artística Crítica artística Eisner (1971) 
de comple- ; 
mentaviedad Adversario Contrapuesto Wolf (1974) 
UTOS UTOS Cronbach (1982) 
Respondente Respondente Respondente Respondente Stake (1975 
Tluminativo Tluminativo Tluminativo Parlett y Hamilton (1977) 
Humanistico- 
interpretativa 
Sin metas Sin metas Sin metas Scriven (1967) 
Democratico MacDonald (1976) 


humanisticos y holisticos (mixtos). Una sinte- 
sis de estas clasificaciones es la siguiente: 


Por su parte, Castillo y Gento (1995) ofrecen 
una clasificación de «métodos de evaluación» 
dentro de cada uno de los modelos (paradigmas), 
que ellos denominan conductivista-eficientistas, 
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Consecución 
objetivos 
Tyler (1940) 


CIPP 
Stufflebeam 
(1967) 


Figura 
(countenance) 
Stake (1967) 


CSE 
Alkin (1969) 


Planificación 
educativa 
Cronbach 
(1982) 


Atención al 
cliente 
Scriven (1973) 


Contraposición 
Owens (1973), 
Wolf (1974) 
Crítica artística 
Eisner (1981) 


Tabla 2- Modelo conductista-eficientista 


Método/ Finalidad Paradigma domi- Contenido de Rol del 
autor evaluativa nante evaluación evaluador 


Medición logro 
objetivos 


Información 
para toma 
decisiones 


Valoración 
resultados y 
proceso 


Información para 
determinación de 
decisiones 
Valoración 
proceso y 
producto 


Cuantitativo Resultados 


C (contexto) 
I (input) 

P (proceso) 
P (producto) 
Antecedentes, 
transacciones, 
resultados 


Centrados en 


logros de 
necesidades 


U (unidades de 


evaluación) 
T (tratamiento) 
O (operaciones) 


Tabla 3- Modelo humanístico 


Método/ Finalidad Paradigma domi- Contenido de Rol del 
autor evaluativa nante evaluación evaluador 


Análisis de 
necesidades del 
cliente 


Opiniones para 
decisión 
consensuada 
Interpretación 
crítica de la 
acción educativa 


Mixto 


Cualitativo 


Todos los 
efectos del 
programa 


Cualquier aspecto 
del programa 


Contexto 
Procesos 
emergentes 


Relaciones de 


procesos 
Impacto en 
contexto 


Técnico externo 


Técnico externo 


Técnico externo 


Técnico externo 


Técnico externo 


Evaluador externo 
de necesidades 
del 

cliente 

Árbitro externo 
del debate 


Provocador 
externo de 
interpretaciones 
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Tabla 4- Modelo holistico 


Meétodo/ Finalidad Paradigma domi- Contenido de Rol del 
autor evaluativa nante evaluacion evaluador 


Valoracion de 
respuesta a 
necesidades de 
participantes 
Interpretacion 
educativa para 
mejorarla 


Evaluacion 
respondente 
Stake (1976) 


Evaluacion 
holistica 
MacDonald 
(1976) 
Evaluación 
iluminativa 


Iluminación y 
comprensión de 
Parlett y Hamil- | los componentes 
ton del programa 
(1977) 


También Scriven (1994) ofrece una clasifica- 
ción de los «modelos anteriores», previamente a 
introducir su perspectiva transdisciplinar que 
luego comentamos. Este autor identifica seis vi- 
siones o enfoques alternativos en la fase «explo- 
siva» de los modelos, además de algunas más 
que denomina «exóticas» y que se mueven entre 
los modelos de jurisprudencia y de experto. A 
continuación comentamos sucintamente estas 
visiones y los «modelos» que se adscriben a 
ellas. 


La visión fuerte hacia la toma de decisiones 
(Visión A) concibe al evaluador investigando 
con el objetivo de llegar a conclusiones evaluati- 
vas que le ayuden al que debe tomar decisiones. 
Los que apoyan este enfoque se preocupan de si 
el programa alcanza sus objetivos, pero van más 
allá, cuestionándose si tales objetivos cubren las 
necesidades que deben cubrir. Esta posición es 
mantenida, aunque no la hiciera explícita, por 
Ralph Tyler y extensamente elaborada en el mo- 
delo CIPP (Stufflebeam y otros, 1971). 


Según el planteamiento tyleriano, las decisio- 
nes acerca de un programa deben basarse en el 
grado de coincidencia entre los objetivos y los 
resultados. El cambio de los alumnos, habitual- 


Cualitativo 


Cualitativo 


Cualitativo 


Resultado de Promotor externo 
debate total de la interpreta- 
sobre programa ción 

por los implicados 
Elementos que Promotor externo 
configuran la de la interpreta- 
acción educativa | ción 

por los implicados 
Sistema de Promotor externo 
enseñanza y me-|de la interpreta- 
dio ción 
de aprendizaje por los implicados 


mente el objetivo perseguido, es el criterio de 
evaluación. 


A diferencia de Tyler, Stufflebeam ofrece 
una perspectiva más amplia de los contenidos a 
evaluar. Estos son las cuatro dimensiones que 
identifican su modelo, contexto (C) donde tiene 
lugar el programa o está la institución, inputs 
(1) elementos y recursos de partida, proceso (P) 
que hay que seguir hacia la meta y producto 
(P) que se obtiene. Además, se deja constancia 
de que el objetivo primordial de la investiga- 
ción evaluativa es la mejora, la toma de deci- 
siones para la mejora de todas y cada una de 
las cuatro dimensiones antes citadas. 


Scriven (1994) nos dice que Stufflebeam ha 
seguido desarrollando su perspectiva desde que 
desarrolló el CIPP. Sin embargo, uno de sus 
colaboradores en tal empresa, Guba, tomó 
posteriormente una dirección diferente, tal 
como hemos visto al analizar la cuarta genera- 
ción de la evaluación (Guba y Lincoln, 1989). 


La visión débil hacia la toma de decisiones 
(Visión B) concibe al evaluador proporcionan- 
do información relevante para la toma de deci- 
siones, pero no le obliga a emitir conclusiones 
evaluativas o críticas a los objetivos de los 
programas. El representante teórico más genui- 
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no es Marv Alkin (1969), que define a la evalua- 
ción como un proceso factual de recogida y ge- 
neracion de informacion al servicio del que toma 
las decisiones, pero es éste el que tiene que tomar 
las conclusiones evaluativas. Esta posición es 
lógicamente popular entre los que piensan que la 
verdadera ciencia no debe o no puede entrar en 
cuestiones de juicios de valor. El modelo de Al- 
kin se conoce como CES (Centro para el Estudio 
de la Evaluación), planteando las siguientes fa- 
ses: valoración de las necesidades y fijación del 
problema, planificación del programa, evalua- 
ción de la instrumentalización, evaluación de 
progresos y evaluación de resultados. 


La visión relativista (Visión C) también man- 
tiene la distancia de las conclusiones evaluativas, 
pero usando el marco de valores de los clientes, 
sin un juicio por parte del evaluador acerca de 
esos valores o alguna referencia a otros. Esta 
visión y la anterior han sido el camino que ha 
permitido integrarse sin problemas en el «carro» 
de la investigación evaluativa a muchos cientifi- 
cos sociales. De hecho, uno de los textos más 
utilizados de evaluación en el ámbito de las cien- 
cias sociales (Rossi y Freeman, 1993), toma pre- 
ferentemente esta perspectiva . 


Las visiones B y C son las posiciones de los 
científicos entroncados con una concepción libre 
de valores de la ciencia. En cambio, los que par- 
ticipan de la visión A proceden de un paradigma 
diferente, probablemente debido a su conexión 
académica con la historia, la filosofía de la edu- 
cación, la educación comparada y la administra- 
ción educativa. 


Hace unos años Alkin (1991) revisó sus plan- 
teamientos de dos décadas atrás, pero siguió sin 
incluir los términos de mérito, valor o valía; ter- 
mina definiendo un Sistema de Información para 
la Gestión (Management Information System- 
MIS) para uso del que toma decisiones, pero no 
ofrece valoraciones al respecto 


Pero la forma más simple de la visión relativis- 
ta (Visión C) es la desarrollada en el «modelo de 
discrepancia» de evaluación de Malcolm Provus 
(1971). Las discrepancias son las divergencias 
con la secuencia de tareas proyectadas y la tem- 


poralización prevista. Este modelo es muy cer- 
cano al control de programas en sentido con- 
vencional; es una especie de simulación de una 
evaluación. 


La visión de la descripción fértil, rica, com- 
pleta (Visión D) es la que entiende la evalua- 
ción como una tarea etnográfica o periodística, 
en la que el evaluador informa de lo que ve sin 
intentar emitir afirmaciones valorativas o infe- 
rir conclusiones evaluativas, ni siquiera en el 
marco de los valores del cliente como en la 
visión relativista. Esta visión ha sido defendida 
por Robert Stake y muchos de los teóricos bri- 
tánicos. Se trata de una especie de versión na- 
turalista de la visión B, tiene algo de sabor re- 
lativista y a veces parece precursora de la vi- 
sión de la cuarta generación. Se centra en la 
observación, en lo observable, más que en la 
inferencia. Recientemente se le ha denominado 
como visión de la descripción sólida, fuerte, 
para evitar el término rica, que parece más 
evaluativa. 


Stake, en su primera etapa, es tayleriano en 
cuanto a concepción evaluativa centrada en los 
objetivos planteados, proponiendo el método 
de evaluación de la figura (Stake, 1967), como 
rostro o imagen total de la evaluación. Esta gira 
en torno a los tres componentes, antecedentes, 
transacciones y resultados, elaborando dos 
matrices de datos, una de descripción y otra de 
juicio. En la primera se recogen de un lado las 
intenciones y de otro las observaciones y, en la 
segunda, las normas, lo que se aprueba y los 
juicios, lo que se cree que debe ser. 


A mitad de los setenta, Stake se aleja de la 
tradición tayleriana de preocupación por los 
objetivos y revisa su método de evaluación 
hacia un planteamiento que él califica como 
«respondente» (Stake, 1975 y 1975a), asu- 
miendo que los objetivos del programa pueden 
modificarse sobre la marcha, con la finalidad 
de ofrecer una visión completa y holística del 
programa y responder a los problemas y cues- 
tiones reales que plantean los implicados. Se- 
gún Stufflebeam y Shinkfield (1987), este mo- 
delo hizo de Stake el líder de una nueva escue- 
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la de evaluación, que exige un método pluralista, 
flexible, interactivo, holístico, subjetivo y orien- 
tado al servicio. Este modelo sugiere la «atención 
al cliente» propuesta por Scriven (1973), valo- 
rando sus necesidades y expectativas. 


De manera gráfica, Stake (1975a) propone las 
fases del método a modo de las horas de un reloj, 
poniendo la primera en las doce horas y siguien- 
do las siguientes fases, el sentido de las agujas 
del reloj. Estas fases son las siguientes: 1) Hablar 
con los clientes, responsables y audiencias, 2) 
Alcance del programa, 3) Panorama de activida- 
des, 4) Propósitos e intereses, 5) Cuestiones y 
problemas, 6) Datos para investigar los proble- 
mas, 7) Observadores, jueces e instrumentos, 8) 
Antecedentes, transacciones y resultados, 9) De- 
sarrollo de temas, descripciones y estudio de 
casos, 10) Validación (confirmación), 11) Es- 
quema para la audiencia y 12) Reunión de infor- 
mes formales. El evaluador puede seguir las fa- 
ses también en sentido contrario del reloj o en 
cualquier otro orden. 


En el método respondente el evaluador ha de 
entrevistar a los implicados para conocer sus 
puntos de vista y buscar la confluencia de las 
diversas perspectivas. El evaluador deberá inter- 
pretar las opiniones y diferencias de puntos de 
vista (Stecher y Davis, 1990) y presentar una 
amplia gama de opiniones o juicios, en lugar de 
presentar sus conclusiones personales. 


La visión del proceso social (Visión E) que 
cristalizó hace algo más de dos décadas alrededor 
de un grupo de la Universidad de Stanford, diri- 
gido por Lee J. Cronbach (1980), resta importan- 
cia a la orientación sumativa de la evaluación 
(decisiones externas sobre los programas y ren- 
dición de cuentas), enfatizando la comprensión, 
la planificación y la mejora de los programas 
sociales a los que sirve. Sus posiciones quedaban 
claramente establecidas en noventa y cinco tesis 
que han tenido una enorme difusión entre los 
evaluadores y los usuarios de la evaluación. 


En cuanto a los contenidos de la evaluación, 
Cronbach (1983) propone que se planifiquen y 
controlen los siguientes elementos: 


e Unidades (U) que son sometidas a evalua- 
ción, individuos o grupos participantes. 


e Tratamiento (T) de la evaluación. 


e Operaciones (O) que lleva a cabo el eva- 
luador para la recogida y análisis de datos, 
así como para la elaboración de conclusio- 
nes. 


e Contexto en el que tiene lugar el programa 
y su evaluación. 


En una investigación evaluativa concreta se 
pueden dar varias unidades, varios tratamientos 
y varias operaciones, en definitiva varios (uto), 
dentro de un universo UTO de situaciones 
admisibles. 


Ernie House (1989), un teórico y un práctico 
de la evaluación bastante independiente de 
corrientes en boga, también marcó el entronque 
social de los programas, pero se distinguía so- 
bre todo por su énfasis de las dimensiones más 
éticas y argumentales de la evaluación, quizás 
motivado por la ausencia de estas facetas en los 
planteamientos de Cronbach y sus colaborado- 
res. 


La visión constructivista de la cuarta gene- 
ración (Visión F) es la última de estas seis vi- 
siones que describe Scriven (1994), siendo 
mantenida por Guba y Lincoln (1989) y segui- 
da por muchos evaluadores americanos y britá- 
nicos. Ya hemos visto anteriormente que esta 
visión rechaza una evaluación orientada a la 
búsqueda de calidad, mérito, valor, etc., y favo- 
rece la idea de que ello es el resultado de la 
construcción por individuos y la negociación 
de grupos. Esto significa, según Scriven, que el 
conocimiento científico de todo tipo es sospe- 
choso, discutible y no objetivo. Lo mismo le 
ocurre a todo trabajo análitico como el análisis 
filosófico, incluido el suyo. Scriven apunta que 
el propio Guba ha sido siempre consciente de 
las potenciales «autocontradicciones» de su 
posición. 


De esta revisión de Scriven quedan al margen 
algunas posiciones evaluativas tradicionalmen- 
te recogidas y tratadas por los analistas. Así por 
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ejemplo, Schuman (1967) ofrece un disefio eva- 
luativo basado en el método científico o, al me- 
nos, en alguna variación o adaptación del mismo. 
Owens (1973) y Wolf (1974 y 1975) proponen 
un método de contraposición o discusión que 
sobre un programa llevan a cabo dos grupos de 
evaluadores, partidarios y adversarios, para pro- 
porcionar información pertinente a quienes to- 
man decisiones. Eisner (1971, 1975 y 1981) 
plantea la evaluación en términos similares al 
proceso de crítica artística. 


El propio Scriven (1967 y 1973) proponía hace 
años centrar la evaluación en la atención al clien- 
te y no tanto en las metas previstas, puesto que 
frecuentemente los logros no previstos son más 
importantes que los que figuran en la planifica- 
ción del programa. Por ello, se suele denominar a 
su enfoque como evaluación sin metas. El eva- 
luador determina el valor o mérito del programa 
para informar a los usuarios; se trata algo así 
como de un intermediario informativo (Scriven, 
1980). 


La evaluación iluminativa (Parlett y Hamilton, 
1977) tiene un enfoque holístico, descriptivo e 
interpretativo, con la pretensión de iluminar so- 
bre un complejo rango de cuestiones que se dan 
de manera interactiva (Fernández, 1991). La eva- 
luación democrática de MacDonald (1971 y 
1976), también denominada holística, supone la 
participación colaborativa de los implicados, 
siendo el contraste de opiniones de los implica- 
dos el elemento evaluativo primordial. 


Scriven (1994) analiza las seis visiones críti- 
camente y se muestra más cercano a la visión A, 
la visión fuerte sobre la toma de decisiones, re- 
presentada fundamentalmente por el modelo 
CIPP de Stufflebeam y sus planteamientos, pues 
dice que es la más cercana de todas a la visión 
del sentido común, que es la que tienen los eva- 
luadores trabajando con sus programas, de la 
misma manera que los médicos trabajan con los 
pacientes, haciéndolo lo mejor posible, indepen- 
dientemente del tipo y del estado general del 
paciente. Scriven quiere extender esta visión con 
una visión o modelo que denomina transdiscipli- 
nar y que él califica como significativamente 


distinta de la aludida visión A y radicalmente 
diferente de las restantes. 


En la perspectiva transdisciplinar, la investi- 
gación evaluativa tiene dos componentes: el 
conjunto de campos de aplicación de la evalua- 
ción y el contenido de la propia disciplina. Al- 
go parecido a lo que ocurre a disciplinas como 
la estadística y la medición. En definitiva, la 
investigación evaluativa es una disciplina que 
incluye sus propios contenidos y los de otras 
muchas disciplinas; su preocupación por el 
análisis y mejora se extiende a muchas disci- 
plinas, es transdisciplinar. 


Esta visión es objetivista como la A y defien- 
de que el evaluador determine el mérito o el 
valor del programa, del personal o de los pro- 
ductos investigados. En tal sentido, se debe 
establecer de manera explícita y defender la 
lógica utilizada en la inferencia de conclusio- 
nes evaluativas a partir de las premisas defini- 
cionales y factuales. Así mismo, se deben per- 
seguir las falacias argumentales de la doctrina 
libre de valores (Evaluation Thesaurus, 1991). 


En segundo lugar, la perspectia transdisci- 
plinar se orienta hacia el consumidor, más que 
hacia el gestor o intermediario. No se trata de 
una orientación exclusiva hacia el consumidor, 
pero sí la consideración primera del consumi- 
dor como justificación del programa, y que el 
bien común es la primacía de la evaluación. A 
partir de aquí, también se produce información 
valiosa para el gestor que decide y se pueden 
analizar los productos de un programa o insti- 
tución a la vista de sus objetivos. Esta posición 
no sólo ve legitimidad en la emisión de conclu- 
siones evaluativas por parte del investigador, 
sino que ve necesidad de hacerlo en la gran 
mayoría de las ocasiones. 


Se trata también de una visión generalizada, 
no justamente una visión general, que incluye 
la generalización de conceptos en el ámbito del 
conocimiento y la práctica. Desde esta perspec- 
tiva, la investigación evaluativa es mucho más 
que la evaluación de programas e incide en 
procesos, instituciones y otros muchos más 
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objetos. De manera mas detallada, esta vision 
generalizada significa que: 


a) Los campos distintivos de aplicación de la 
disciplina son los programas, el personal, los 
rendimientos, los productos, los proyectos, la 
gestión, y la metaevaluación de todo ello. 


b) Las investigaciones evaluativas inciden en 
todo tipo de disciplinas y en las prácticas que 
resultan de ellas. 


c) Las investigaciones evaluativas se mueven 
desde niveles muy prácticos hasta el nivel 
conceptual. 


d) Los distintos campos de la investigación 
evaluativa tienen muchos niveles de interco- 
nexión y solapamiento. La evaluación de pro- 
gramas, de personal, de centros, etc., tienen 
muchos puntos en común. 


El cuarto elemento distintivo de la visión 
transdisciplinar de la evaluación es que se trata 
de una visión técnica. La evaluación no sólo ne- 
cesita el apoyo técnico de otras muchas discipli- 
nas, sino que, además, tiene su propia metodolo- 
gía. La lógica de la síntesis de resultados, las 
consecuencias, etc., y la correcta ubicación en el 
proceso de muchas técnicas auxiliares en las que, 
probablemente, no es necesario ser un gran espe- 
cialista, pero sí tener un conocimiento cabal. 


Esta perspectiva transdisciplinar de la investi- 
gación evaluativa de Scriven (1994), coincide en 
gran medida con los planteamientos que de la 
misma hemos defendido en otros momentos (Es- 
cudero, 1996). Nosotros no tenemos unas posi- 
ciones contrarias a las otras visiones en la misma 
medida que las tiene Scriven y, de hecho, consi- 
deramos desde una posición pragmática, que 
todas las visiones tienen puntos fuertes y que en 
todo caso, aportan algo útil para la comprensión 
conceptual y el desarrollo de la investigación 
evaluativa. Sin embargo, sí que pensamos que 
esta moderna visión de Scriven es sólida y cohe- 
rente y ampliamente aceptada en la actualidad. 


Una crítica que podría hacerse a este plantea- 
miento de Scriven está en el excesivo énfasis 
relativo de la orientación al cliente, al usuario en 


sentido estricto. Pensamos que esta orientación 
debe integrarse dentro de una orientación a los 
implicados, donde existen distintos tipos y dis- 
tintas audiencias y, por supuesto, una muy im- 
portante, son los usuarios en el sentido de Scri- 
ven, pero nos parece que la investigación eva- 
luativa hoy en día tiene una orientación priori- 
taria más plural que la defendida por este au- 
tor. 
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